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摘要 : 【 目的 ] 在 总 结 当前 引文 元 数据 抽取 方法 的 基础 上 ,结合 语义 学 知识 和 机 器 学 习 方 法 ,对 引文 元 数据 的 自 
动 抽取 方法 进行 探索 。【 方法 ] 实验 中 采用 神经 网 络 模型 对 人 工分 割 过 的 语 料 进行 词 向 量 训练 。 利 用 相同 类 型 的 
元 数据 会 相对 集中 地 出 现在 向 量 空间 中 某 一 位 置 的 现象 , 通过 支持 向 量 机 分 类 算法 实现 对 元 数据 的 自动 归 类 和 
标注 。【 结果 】 在 以 外 文 引文 数据 作为 测试 集 的 实验 中 ， 本文 方法 取得 了 较 高 的 准确 率 和 召回 率 , 特别 是 针对 引 
文中 含有 多 种 语言 和 缩写 的 现象 , 具有 较 好 的 处 理 能 力 。[ 局 限 ] 在 对 于 引文 元 数据 时 间 内 容 的 细 粒 度 抽取 中 存 


在 一 定 的 局 限 性 。[ 结论 】 实验 结 果 表 明 ， 此 方法 在 引文 元 数据 的 自动 发 现 和 标注 上 具有 良好 的 效果 ， 并 有 


程度 地 提高 方法 的 适用 性 和 容错 率 。 
关键 词 : 引文 元 数据 ”元 数据 抽取 ”机 需 学 习 ”神经 网 络 
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1 引 Ë 


在 科研 文献 中 , 特别 是 科技 文献 中 包含 大 量 的 引 
文 数据 。 引 文 数据 不 但 体现 了 科学 发 展 的 延续 性 , 也 
体现 了 对 他 人 著作 权 的 尊重 和 保护 。 引 文 文献 一 般 由 
标题 、 作 者 、 出 版 商 、 发 表 时 间 等 诸多 著录 要 素 构成 。 
在 绝 大 多 数 的 文档 元 数据 标准 中 , 引文 数据 都 被 认为 
是 一 类 重要 的 元 数据 类 型 , 在 数字 图 书馆 和 语义 网 建 
设 中 有 诸多 应 用 。 在 传统 的 图 书馆 中 , 文献 元 数据 信 
息 往 往 需要 后 期 的 手工 抽取 或 录入 , 但 随 着 目前 文献 
数量 的 激增 , 依靠 人 工 抽取 或 录 和 人 已 不 太 可 能 。 此 外 ， 
大 量 的 遗留 纸 质 文档 在 数字 化 过 程 中 也 需要 自动 抽取 
这 些 文档 中 的 元 数据 。 引 文 元 数据 的 抽取 是 进行 领域 
检索 、 引 文 互联 分 析 、 文 章 贡 献 评价 、 主 题 发 现 等 研 
究 的 基础 。 然 而 由 于 采用 的 标准 不 一 致 ， 所 以 引文 元 
数据 常常 具有 不 同 的 风格 ， 如 不 同 的 语言 、 主 题 、 出 
版 物 类 型 (如 图 书 、 期 刊 、 会 议 ) 所 采用 的 引文 风格 就 


不 尽 相 同 。 在 引文 内 容 上 , 不 同 引 文 所 包含 的 元 数据 
个 数 和 排列 顺序 也 有 所 不 同 。 在 英文 科技 文献 中 , 常 
见 的 风格 就 有 APA, MLA, Chicago, AMA, IEEE 和 
ACM 等 6 种 站 。 正 是 由 于 引文 的 重要 性 及 其 风格 多 样 
性 , 分 析 挖 掘 引 文 数据 中 所 包含 的 信息 已 经 成 为 当前 
信息 抽取 领域 一 项 重要 而 又 具 挑 战 性 的 工作 ,因此 本 
文 设计 了 一 种 基于 机 器 学 习 算 法 实现 引文 元 数据 自动 
抽取 和 标注 的 方法 , 该 算法 可 以 规避 一 些 在 人 工 编撰 
引文 数据 时 使 用 模板 不 一 致 的 现象 , 并 且 具 有 良好 的 
跨 语言 平台 使 用 效果 。 


2 研究 综述 


引文 元 数据 的 抽取 作为 元 数据 抽取 的 一 个 子 任 
务 , 在 计算 机 和 图 书馆 等 领域 有 着 重要 的 研究 意义 ， 
并 发 展演 绎 出 多 种 方法 。 总 体 上 , 引文 元 数据 的 抽取 
方法 可 以 分 为 三 类 : 基于 规则 、 基 于 模板 和 基于 机 天 
学 习 的 方法 。 
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基于 规则 的 方法 已 经 被 广泛 应 用 于 现实 的 引文 抽 
取 系 统 中 。 例 如 Wei 等 所 利用 逐 层 标注 (Layer-upon- 
Layer Tagging) 的 方法 抽取 引文 中 的 元 数据 ， 利 用 格式 
属性 层 和 字典 语义 层 的 逐步 标注 ,实现 引文 元 数据 信 
息 的 自动 标注 。 Besagni 等 中 提出 结合 词性 标注 和 规则 
修正 来 实现 引文 元 数据 的 抽取 和 标注 。 李 朝 光 等 外 则 
提出 利用 正则 表达 式 对 论文 的 元 数据 进行 抽取 。 

基于 模板 的 方法 也 是 常 被 采用 的 方法 之 一 。 基 于 
模板 的 方法 一 般 会 先 建立 模板 数据 库 ,然后 通过 查找 
和 匹配 模板 ,完成 待 匹 配 引 文 的 抽取 。Day 等 中 统计 出 
计算 机 科学 领域 科技 文献 的 6 种 主要 参考 文献 格式 ， 
构建 了 多 层 知识 表示 框架 INFOMAP, 并 以 此 为 基础 ， 
开发 了 基于 知识 的 引文 元 数据 抽取 系统 ， 其 实质 是 基 
于 多 层 模板 的 元 数据 抽取 方法 。Cortez 等 四 提出 一 种 
无 监督 的 引文 元 数据 抽取 方法 , 利用 已 存在 的 给 定 领 
域 元 数据 作为 训练 集 ， 自动 生 成 模板 完成 抽取 工作 。 
Huang AU! fI Chen 等 外 使 用 蛋白 质 序列 表示 引文 字符 
串 , 将 引文 模板 的 序列 表示 形式 存 人 DNA 数据 库 。 然 
后 借助 在 DNA 数据 库 中 进行 相似 性 比较 的 分 析 工 具 
Basic Local Alignment Search Tool(BLAST), 为 待 分 析 
的 引文 寻找 相似 的 DNA， 即 引文 模板 , 最 后 根据 匹配 
的 模板 解析 引文 数据 。 

这 些 基 于 规则 或 模板 的 方法 , 一 般 具 有 和 较 高 的 分 
析 效 率 , 特别 是 对 于 规则 或 模板 所 能 覆盖 的 引文 风格 ， 
具有 较 高 的 识别 率 。 但 是 研究 者 也 意识 到 这 种 基于 规 
则 或 模板 的 方式 存在 缺陷 ， 当 引进 新 的 引文 风格 时 ， 
需要 增添 规则 或 模板 , 随 着 引文 风格 的 增多 , 规则 或 
模板 制定 的 负担 会 越 来 越 大 , 造成 系统 元 余 度 提高 ， 
适用 性 降低 。 

相对 基于 规则 和 模板 的 方法 , 很 多 研究 者 选择 机 
器 学 习 的 方法 来 自动 地 发 现 和 标 引 元 数据 。 在 自然 话 
言 处 理 中 , 很 多 学 者 利用 分 类 算法 来 解决 文本 的 序列 
化 标注 问题 , 例如 Han 等 四 把 元 数据 抽取 看 做 分 类 问 
题 ， 并 将 支持 向 量 机 (SVMD) 方 法 引入 到 元 数据 抽取 任 
务 中 , 改进 了 HMM 方法 在 独立 性 假设 上 所 带 来 的 不 
E, 实验 取得 了 令 人 满意 的 结果 , 但 该 方法 同时 也 和 缺 
失 了 状态 转移 和 观察 序列 之 间 的 紧密 关系 。 此 外 , H 
前 普遍 使 用 的 方法 是 条 件 随 机 场 模型 ， 例 如 Peng SEN 
将 条 件 随机 场 (CRF) 方 法 用 于 引文 元 数据 的 自动 抽取 
中 , 并 在 论文 元 数据 抽取 的 公共 测试 集 Cora 数据 集 上 
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取得 良好 的 抽取 效果 。 Yu 等 "在 中 文科 技 论文 数据 集 
上 测试 了 使 用 CRF 方法 抽取 论文 头 部 和 引文 元 数据 ， 
同样 取得 了 良好 的 效果 。 

综 上 所 述 , 基于 机 噩 学 习 的 方法 能 在 元 数据 抽取 
上 取得 良好 的 效果 , 但 同时 也 带 来 了 人 工 标注 、 训 练 
时 间 过 长 等 额外 开销 。 并 且 由 于 在 现实 中 引文 风格 和 
语种 的 多 样 性 , 不 可 能 穷尽 所 有 的 引文 风格 , 特别 是 
在 文献 作者 人 工 添 加 引文 数据 时 , 难免 会 出 现 错误 使 
用 模板 的 现象 ， 从 而 很 大 程度 上 降低 自动 识别 的 精 
度 。 因 此 从 这 个 意义 上 讲 , 无 论 是 手工 制定 的 规则 或 
模板 还 是 通过 机 器 学 习 训 练 出 来 的 模板 , 都 不 具有 很 
强 的 适应 性 。 因 此 笔者 希望 通过 改进 机 器 学 习 算法 ， 
增加 跨 语种 的 适应 性 和 打破 使 用 模板 的 限制 ,从 而 提 
高 自动 标注 的 准确 性 和 普 适 性 。 
3 引文 数据 自动 发 现 、 抽 取 和 标注 的 关键 

技术 

针对 引文 元 数据 抽取 中 存在 的 问题 , 本 文 提出 了 
一 种 改进 型 的 基于 特征 分 析 的 引文 元 数据 抽取 方法 ， 
摆脱 了 传统 方法 依靠 抽取 模板 的 限制 ,并 且 具 有 跨 
语言 平台 的 优势 。 该 方法 具体 的 技术 实现 路 线 如 图 1 


所 示 。 
据 
CET : 
Er] : CBOWHEM S L7 iE 
"EE D 


类 特征 训练 : 


图 1 技术 路 线 图 
3.1 数据 的 采集 以 及 预 处 理 
实验 使 用 的 引文 数据 主要 来 自 中 文 社会 科学 引文 
索引 (CSSCD 引 文库 ,由 于 实验 中 需要 构建 词 向 量 空 
间 模 型 ， 因 此 在 处 理 中 文 引文 时 需要 进行 分 词 处 理 。 
分 词 效果 会 对 实验 结果 造成 较 大 的 影响 ， 所 以 在 实验 


中 主要 采用 外 文 引文 数据 进行 效果 测试 。 主 要 通过 构 
建 正 则 表达 式 过 滤 引 文 数据 ， 获 取 外 文 引文 数据 。 

经 过 对 大 量 外 文 引文 数据 的 观察 , 外文 引 文中 常 
以 “.,: "等 符号 作为 元 数据 之 间 的 分 隔 符 。 但 很 多 时 候 
“” 符 号 还 会 被 用 来 表示 人 名 缩写 、 工 具 的 版 本 号 等 。 
为 了 提高 对 元 数据 分 隔 符 号 的 辨识 度 ,实验 中 制定 了 
以 下 数据 预 处 理 规 则 。 

(1) 分 隅 符 蔡 换 规则 : 由 于 引文 数据 中 经 常 出 现 
中 文 标点 与 英文 标点 乱用 的 现象 , 会 增加 数据 分 隔 符 
识别 的 难度 , 所 以 将 全 部 标点 都 替换 为 英文 标点 。 

(2) 点 号 替换 规则 : 当 点 号 前 是 一 个 大 写字 母 且 
点 号 后 是 一 个 英文 字母 和 标点 符号 时 ,这 时 往往 是 英 
文 的 人 名 ; 当 点 号 前 后 为 单个 数字 时 ， 例 如 “Windows 
3.0”， 常 常 表示 的 是 软件 的 版 本 号 ; 点 号 还 常 与 最 近 
的 单词 组 成 缩写 的 形式 ， 如 “St.”, “Vol.”,“Aug.” 等 ,这 时 
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将 点 号 蔡 换 为 “*” 号 , 不 再 视 为 元 数据 之 间 的 分 隔 符 。 
3.2 ”元 数据 分 类 特征 值 的 训练 

当前 基于 神经 网 络 方法 的 词 向 量 计 算 取 得 了 非常 
好 的 效果 , 例如 谷歌 公司 的 Mikolov 等 (4 开发 了 一 种 
词典 和 术语 表 的 自动 生成 技术 , 能 够 把 一 种 语言 转变 
为 另 一 种 语言 ， 取 得 了 很 好 的 效果 。 

在 示例 中 考虑 英语 和 西班牙 语 两 种 语言 , 通过 训 
练 分 别 得 到 他 们 的 词 向 量 空间 E(English) 和 
S(Spanish)， 从 英语 中 取出 5 个 词 one, two, three, four, 
five, 设 其 在 图 2 左 部 (B) 中 对 应 的 词 向 量 分 别 为 ul, 
u2, u3, u4, u5。 为 了 方便 作 图 , 利用 主 成 分 分 析 (PAC) 
降 维 , 得 到 相应 的 二 维 向 量 vl, v2, v3, v4, v5。 在 西 班 
牙 语 中 取出 (与 one, two, three, four, five 对 应 的 ) uno, 
dos, tres, cuatro, cinco, 同样 进行 PAC 降 维 处 理 ,， 具体 
如 图 2 右 部 (S) 所 示 。 


0.2 ocuatro (four) 


0.1 ouno (one) 
9 cinco (five) 
—0.1 
—0.2 otres (three) 


0.6 
-02 0 02 04 06 08 10 12 


图 2 5 个 词 在 两 个 向 量 空 间 中 的 位 置 


从 图 2 中 可 以 发 现 , 5 个 词 在 两 个 向 量 空间 中 的 相 
对 位 置 相 差不多 ,这 说 明 两 种 不 同 语言 对 应 向 量 空间 
的 结构 之 间 具有 相似 性 ,从 而 进一步 说 明 在 词 向 量 空 
间 中 利用 距离 来 刻画 词 之 间 相似 性 的 合理 性 , 并 且 具 
有 相同 功能 的 词汇 会 相对 集中 在 同一 片区 域 。 基 于 以 
上 现象 , 利用 神经 网 络 模 型 为 元 数据 中 的 词 构建 词 向 
量 空 间 模型 ， 同 理 同 一 类 元 数据 中 经 党 出 现 的 词 会 相 
对 集中 地 出 现在 同一 片区 域 中 , 利用 这 样 的 特性 ,， 笔 
者 认为 在 向 量 空间 模型 中 , 作者 名 、 标 题名 等 不 同类 
型 的 引文 元 数据 会 分 别 聚 集 在 空间 模型 中 的 不 同 区 域 
内 ,由 此 可 以 有 效 地 对 引文 元 数据 实现 自动 标 引 ,并 
且 可 以 降低 不 同 语言 类 型 对 于 分 类 效果 的 影响 。 由 于 
在 中 文 引文 中 没有 明显 的 词 区 分 , 必须 借助 分 词 软件 ， 
但 是 分 词 软件 的 错 分 现象 会 给 实验 结果 带 来 很 多 干 


Hi, 因此 实验 中 主要 以 外 文 引 文 为 例 。 

在 实验 中 , 先 将 预 处 理 过 的 训练 数据 进行 人 工 识 
别 与 标注 , 经 过 标注 后 的 数据 主要 有 两 个 作用 : 为 词 
向 量 的 训练 提供 训练 集 ; 为 SVM 特征 分 析 分 类 提供 
训练 集 。 具 体 人 工 标注 的 样 例 数据 如 图 3 所 示 。 


引文 示例 : 

Smith , A* D*.Myth and Memories of the Nation.London:Oxford University Press.1999 : 105 
训练 集 标注 示例 : 

11Smith , A* D* 

2|Myth and Memories of the Nation 

41London 


510xford University Press 
611999 : 105 


引文 示例 : 

Geertz , Clifford.From the Native ' s Point of View : On the Nature of Anthropological 
Understanding.Reprinted in Interpretive Social Science.Berkeley:University of Californi 
1979 


ure of Anthropological Understanding 


图 3 训练 集 标注 示例 
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在 图 3 "n, 按照 元 数据 的 类 型 进行 标注 ， 每 行 代 
表 一 种 元 数据 类 型 。 经 过 标注 的 元 数据 所 代表 的 类 别 
和 表示 的 分 类 信息 如 表 1 所 示 。 
表 1 训练 集 标注 说 明 
分 类 标号 表示 的 分 类 
1 作者 姓名 
文献 标题 
期 刊 名 或 者 书 名 
地 点 
出 版 商 或 者 出 版 商 
出 版 时 间 和 页 码 


ON tn A Ut N 


(1) 词 向 量 训练 

本 文中 单词 词 向 量 的 构建 主要 采用 CBOW 模型 
将 经 过 划分 的 元 数据 作为 词 向 量 构建 的 训练 数据 。 该 
模型 的 主要 思想 是 在 已 知 当前 词 W, 的 上 下 文 W, 
Wai, Wa, Woa 的 前 提 下 预测 W, Él 4 给 出 了 CBOW 
模型 的 网 络 结构 , 它 的 结构 类 似 神经 网 络 模型 ， 主 要 


包括 三 层 : 输入 层 、 投 影 层 和 输出 层 。 
v(Context(w),) v(Context(w),) | v(Context(w),.) 
输入 层 : | | L——1 .. A 
累加 求 和 S 二 
投影 层 : -一 一 X, 
ck TA. k Em: N 
ia g. ^ is 
3 A 
(Context(w),w) SS 
© c j 


图 4 CBOW 模型 网 络 结构 


输入 层 : 包含 Contex(w)'P 2c 个 词 的 词 向 量 
w(Context(w);), v(Context(w);) :-: v(Context(w)o;) € R”, m 
表示 词 向 量 的 长 度 。c 表示 在 词 w 的 前 后 各 取 c 个 词 。 

投影 层 :将 2c 个 向 量 做 求 和 累加 , 具体 如 公式 (1) 
Biz o 

X,- S w(Context(w;)) (1) 


i=l 
输出 层 : 输出 层 对 应 一 棵 二 又 树 , 它 以 语料库 中 
出 现 的 词 作为 叶子 节点 ,以 各 词 在 语 料 中 出 现 的 次 数 
为 权 值 构造 出 Huffman fj, 在 这 棵 树 中 叶子 节点 共 
N(N ADIT, 分别 对 应 词典 D 中 的 词 。 
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实验 中 主要 采用 基于 Hieratchical Softmax 的 
CBOW 模型 。 目标 函数 通 稼 为 公式 (2) 所 示 的 对 数 似 然 
函数 。 

G= 2. log p(w| Context (w)) (2) 


使 用 神经 网 络 模型 构建 词 向 量 主要 有 两 个 优势 : 

四 词语 之 间 的 相似 性 可 以 通过 词 向 量 来 体现 

在 神经 网 络 概率 语言 模型 中 假定 了 “相似 ”的 词 对 应 的 
词 向 量 也 是 相似 的 。 并 且 概 率 函 数 关于 词 向 量 是 光滑 的 ， 词 
向 量 中 的 一 个 小 变化 对 概率 的 影响 也 只 是 一 个 小 变化 。 

@) 基 于 词 向 量 的 模型 自 带 平 滑 功能 ， 由 于 p(w|Context 
(w)) €(0, 1), 不 为 零 ， 所 以 不 需要 额外 处 理 。 

在 向 量 空 间 模 型 中 , 作者 名 、 标 题名 、 期 刊 名 、 
时 间 等 不 同 引文 分 类 元 数据 包含 的 词 向 量 会 分 别 相对 
集中 在 一 个 稳定 的 区 域内 , 这 也 使 得 利用 分 类 算法 对 
引文 元 数据 实现 自动 分 类 和 标 引 成 为 可 能 。 

(2) 分 类 特征 训练 

由 于 每 个 类 别 的 元 数据 相对 集中 在 同一 个 空间 区 
域内 , 对 训练 数据 中 每 个 类 别 的 词 向 量 进行 聚 类 计算 
求 出 聚 类 中 心 , 也 就 是 每 个 分 类 中 最 具 代 表 性 的 元 数 
HE, 利用 待 判断 的 词 在 空间 模型 中 的 位 置 与 各 个 分 类 
中 心 的 距离 ， 从 而 判断 新 词 的 归 类 。 在 实验 中 对 训练 
数据 中 的 文本 按 类 别 进行 整理 ,利用 词 向 量 和 
K-means 聚 类 算法 ,分 别 求 出 每 个 类 别 的 聚 类 中 心 。 
K-means 是 一 种 常用 的 聚 类 算法 ， 对 于 给 定 的 一 个 包 
含 n 个 4 维 数据 点 的 数据 集 针 = 人 op 
Hh X, eR 以 及 要 生成 的 数据 子 集 的 数目 K, 
K-means 聚 类 算法 将 数据 对 象 组 织 为 K 个 划分 
C= {Ci,k=1,2,3…} ,每 个 划分 代表 一 个 类 C, 每 个 
类 有 一 个 类 别 中 心 4。 选 取 欧 式 距 离 作为 相似 性 和 距离 
判断 准则 , 计算 该 类 内 各 点 到 聚 类 中 心 如 的 距离 平方 和 。 

J(,)9 È lx- È G) 


X;€c, 


聚 类 目标 是 使 各 聚 类 总 的 距离 平方 和 


J(C)= YJ(6) 最 小 。 
k-l 


K K n 
JC)» X lx- =X} dx -tI 


k=l x; Eck k=l i=l 
1 zx, eC, 

其 中 ， d, = a (4) 
0, Æx, € C; 
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根据 最 小 二 乘法 和 拉 格 朗 日 原理 , 聚 类 中 心 tw ” 离 作 为 分 类 特征 ， 可 以 减少 分 类 特征 数量 并 且 强 化 
该 取 为 类 别 Ci 各 数据 点 的 平均 值 , K-means 聚 类 算法 ”特征 描述 。 
从 一 个 初始 的 K 类 别 划分 开始 , 然后 将 各 数据 点 指派 
到 各 个 类 别 中 ， 以 减 小 总 的 距离 平方 和 。 因 为 K-means 
聚 类 算法 中 总 的 距离 平方 和 随 着 类 别 个 数 民 的 增加 而 


聚 类 B 
趋向 于 减 小 ( 当 Kon Bf, J(C)-0). 因此， 总 的 距离 平方 (标题 来 类 ) 
和 只 能 在 某 个 确定 的 类 别 个 数 K 下 ,取得 最 小 值 。 利 
用 聚 类 算法 可 以 知道 每 类 元 数据 中 最 具 该 类 元 素 特征 

AS 
的 数据 占据 的 位 置 ( 聚 类 中 心 ) 并 使 用 聚 类 算法 来 指 EIS! E R 
导 元 数据 的 分 类 ， 在 分 类 时 为 数据 特征 降 维 ,以 缩短 因为 元 数据 中 每 个 元 素 属于 的 类 别 还 与 在 引文 中 
训练 的 时 间 。 的 位 置信 息 有 重要 的 联系 ， 所 以 在 分 类 时 , 还 以 每 个 


由 于 在 外 文 引文 中 常用 %.:” 作 为 引文 元 数据 的 。 ”分 制 块 所 属 的 位 置 除 以 总 的 分 制 块 个 数 得 到 每 个 分 割 
AMAT, 并且 每 个 分 隔 符 内 的 数据 都 是 同一 种 数据 。” 块 在 引文 中 的 相对 位 置 ， 作为 在 分 类 中 的 位 置 特 征 
类 型 ， 每 个 切割 部 分 的 质心 ( 聚 类 中 心 ) 到 各 个 分 类 ” 值 。 假 设 切割 后 的 引文 数据 表示 为 g= (dedos 
的 质心 的 欧式 距离 作为 分 类 的 特征 ,以 此 对 引文 元 9 …,9 } ,切割 单元 的 位 置 特征 信息 可 以 表示 为 
数据 进行 分 类 ， 如 图 5 BU. 利用 质心 到 质心 的 距 — (n). 参与 分 类 特征 训练 的 特征 采集 样 例如 表 2 所 示 。 


表 2 SVM 采集 的 特征 数值 样 例 


aga ME ARX 1 离 聚 类 2 离 聚 类 3 离 聚 类 4 离 聚 类 5 离 聚 类 6 切割 单元 
下 单元 内 容 


的 距离 的 距离 的 距离 的 距离 的 距离 的 距离 位 置 特征 

Chatterjee 169.70 172.06 140.57 101.79 53.43 138.36 0.17 
S* 57.93 55.77 86.09 124.75 174.15 89.56 0.33 
Regression and 

Analysis by Exariple 17.64 17.11 18.00 56.29 106.29 20.70 0.50 
John Wiley & Sons Inc 110.96 113.44 81.81 43.00 13.34 80.03 0.67 
2000 164.11 166.58 135.09 96.33 48.81 132.70 0.83 
248 168.45 170.95 139.48 100.74 52.93 137.23 1.00 

结合 CBOW 算法 、K-means 算法 以 及 元 数据 位 置 @) 算 法 最 终 将 转化 成 一 个 二 次 型 寻 优 问题 ,从 理论 上 


特征 对 元 数据 所 具有 的 向 量 空间 特征 进行 整合 , 使 得 说 得 到 的 将 是 全 局 最 优点 ， 解 决 了 在 神经 网 络 方法 中 无 法 


-— E " 3E 46,65 A STILL I] 8; 
目 同 类 别 的 元 数据 分 布 在 向 量 空间 中 相对 集中 的 区 域 ，“ 78 i 
ji ai a i 图 将 实际 问题 通过 非 线性 变换 转换 到 高 维 的 特征 空间 ， 


利用 分 类 算法 进行 3 | 文 元 数据 的 自 动 识别 和 标注 。 在 高 维 空 间 中 构 造 线性 判 别 函数 来 实现 原 室 间 中 的 非 线性 
(3) 支持 向 量 机 分 类 判别 函数 ,特殊 性 质 能 保证 机 器 有 较 好 的 泛 化 能 力 ,同时 巧 
SVM 是 机 器 学 习 研 究 中 的 一 项 重大 成 果 , 是 一 ” 妙 地 解决 了 维 数 问 题 , 其 算法 复杂 度 与 样本 维 数 无 关 。 

种 重要 的 分 类 算法 。 它 主要 用 于 解决 二 值 分 类 的 模式 在 综合 比较 神经 网 络 模型 和 SVM 模型 的 特点 后 ， 


识别 问题 ,SVM 是 在 统计 学 习 理 论 (Statistical Learning ”实验 中 主要 选择 SVM 算法 进行 引文 元 数据 特征 的 分 
Theory，SLT) 的 基础 上 发 展 出 来 的 一 种 新 的 通用 学 习 ” 类 训练 。 对 经 过 预 处 理 的 引文 数据 , 按照 常用 的 数据 
方法 ,其 核心 内 容 是 Stitson 等 03 在 1992 年 到 1995 年 。 元 分 隔 符 进行 数据 切割 , 通过 素 类 算法 求解 当前 切割 


间 提 出 的 。 采 用 支持 向量 机 方法 的 主要 优点 是 : 元 的 聚 类 中 心 到 各 个 分 类 的 聚 类 中 心 的 距离 ,并 结合 
(DSVM 专门 针对 有 限 样 本 的 情况 ,其 目标 是 得 到 现 有 ”切割 元 所 处 的 位 置 特征 值 作为 分 类 特征 ， 对 切割 元 所 
信息 下 的 最 优 解 而 不 仅仅 是 样本 数 趋 于 无 穷 大 时 的 最 优 值 ; 属 的 类 别 进行 自动 分 类 。 
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41 实验 评价 指标 
在 此 次 实验 中 采用 准确 率 和 召回 率 以 及 调和 平均 
数 (Fl1 值 ) 作 为 评价 参考 , 公式 如 下 。 
.提取 的 正确 的 信息 条 数 
AER = 
EAT 提取 出 的 信息 条 数 
提取 出 的 正确 的 信息 条 数 


召回 率 = 
j 样本 中 的 信息 条 数 
2x 准 确 率 x 召 回 率 
F1 值 = 
A EEES 


42 ”实验 结果 

以 CSSCI 采集 到 的 2 000 条 外 文 引 文 数据 为 实验 
数据 , 经 过 人 工 标注 后 作为 实验 训练 集 。 部 分 实验 结 
果 如 图 6 所 示 。 
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图 6 实验 结果 展示 


通过 图 6 可 以 发 现 , 实验 方法 对 于 多 单位 联合 出 
版 的 出 版 社 名 称 识别 和 对 于 使 用 不 同 引 文 标注 风格 的 
分 割 单元 识别 取得 了 良好 的 效果 。 通 过 语义 分 析 可 以 
准确 地 标注 出 时 间 缩 写 例如 “Nov” 和 ”Dec”， 凸显 出 结 
合 语义 对 引文 元 数据 实现 自动 标注 的 手段 相对 于 单一 
采用 形式 模板 进行 自动 标注 识别 的 优势 ,避免 了 当 有 
新 的 模板 形式 添加 时 , 需要 不 断 地 调整 模板 , 增加 程 
序 的 复杂 度 。 此 外 结合 语义 对 引文 进行 标注 识别 可 以 
很 好 地 规避 现实 中 错误 使 用 分 隔 符 号 的 现象 ， 提高 了 
算法 的 容错 性 , 增加 了 算法 的 普 适 性 。 当 然 这 样 的 方 
法 也 存在 一 定 的 缺陷 ， 比 如 在 识别 出 版 年 份 和 出 版 页 
码 时 ,由 于 年 份 和 页 码 都 是 由 数字 组 成 , 语义 差别 不 
K, 单 靠 语义 模型 很 难 将 元 数据 区 分 出 来 ， 如 果 能 够 
配合 使 用 模板 , 将 会 取得 更 好 的 效果 。 
4.3 对比 实验 结果 分 析 

自然 语言 处 理 中 常用 隐 马 尔 可 夫 模 型 、 


条 件 随 机 
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场 模 型 和 最 大 烂 模型 来 解决 序列 化 标注 问题 ， 当 前 普 
遍 使 用 的 模型 是 条 件 随机 场 模 型 (CRF)。, 为 了 能 够 可 以 
更 加 凸显 实验 的 效果 , 笔者 使 用 条 件 随 机 场 模 型 作为 
参照 组 进行 了 对 比 实验 , CRF 是 由 Lafferty 等 09 提 出 ， 
结合 了 最 大 箭 模型 和 隐 马 尔 可 夫 模 型 特点 的 一 种 无 回 
图 模型 ， 近 年 来 在 分 词 、 词 性 标注 和 命名 实体 识别 等 
序列 标注 任务 中 取得 了 很 好 的 效果 。 

由 于 CRF 实验 中 也 需要 大 量 的 人 工 标注 , 为 了 减 
少 人 工 标注 的 工作 量 同时 考虑 到 两 种 方法 对 于 作者 姓 
名 和 数字 日 期 、 页 码 的 识别 都 有 很 高 的 准确 度 ， 难 以 
表现 实验 的 效果 , 因此 仅 对 出 版 社 名 称 的 抽取 进行 对 
比 实验 。 在 实验 中 , 利用 斯 坦 福 大 学 自然 语言 研究 小 
组 推出 的 语法 解析 工具 Stanford Parser 作为 英文 引文 
的 词性 标注 工具 ,在 对 语 料 进行 标注 时 , 使 用 五 元 标 
记 模 式 , 具体 标注 规则 如 表 3 所 示 。 


表 3 标注 规则 示意 表 


标记 符号 表示 含义 
B Begin 出 版 社 名 称 的 开始 
C Continue 连续 ,名 称 未 完结 
E End 出 版 社 名 称 的 结束 
SW Single Word 单个 词 的 出 版 社 名 称 
N Not 非 出 版 社 名 称 词 


对 2 000 篇 引文 数据 进行 人 工 标 注 , 标注 的 具体 
形式 如 表 4 所 示 。 
表 4 CRF 训练 集 的 标注 形式 


词 词性 标注 识别 序列 标注 
Ollman NNP N 
, ; N 
Bertell NNP N 
Left VBN N 
Academy NNP N 
- i N 
Marxist JJ N 
Scholarship NN N 
on IN N 
American JJ N 
Campuses NNS N 
, ; N 
McGraw NNP B 
- : C 
Hill NNP C 
Book NN C 
Company NN E 
; , N 
1982 CD N 
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具体 的 对 比 实验 效果 如 图 7 所 示 。 


23:00% 92.70% 
20:00% 86.72% 87.10% 
85.00% 82.13% 82:53% 
80 00% 30.0096 

` 0 
75.00% T i 
70.00% - 

BENED 准确 率 FÉ 


WCRF ”日 实 验方 法 
图 7 对 比 实验 结果 参数 图 


从 图 7 中 可 以 看 出 , 无 论 是 在 召回 率 还 是 在 准确 
率 上 , 实验 算法 都 要 优 于 普通 的 CRF 算法 , 特别 是 在 
识别 的 准确 率 上 。 由 于 对 比 实验 中 只 选取 词 的 词性 特 
征 作为 抽取 特征 , 这 可 能 是 导致 实验 效果 一 般 的 原因 
之 一 。 类 似 CRF 算法 的 经 典 模式 识别 算法 ,在 构建 模 
型 前 , 一 般 需 要 事先 提取 特征 ,在 提取 诸多 特征 后 ,还 
要 对 这 些 特征 进行 相关 性 分 析 , 找到 最 能 代表 字符 的 
特征 ,去掉 与 分 类 无 关 和 自 相 关 的 特征 。 因 此 这 些 特 
征 的 提取 会 太 过 依赖 人 的 经 验 和 主观 意识 , 提取 到 特 
征 的 不 同 对 分 类 性 能 影响 很 大 ,甚至 提取 特征 的 顺序 
也 会 影响 最 后 的 分 类 效果 。 实 验算 法 中 将 词 的 语义 特 
征 作为 分 类 特征 , 利用 SVM 算法 进行 元 数据 的 自动 
标识 ， 取 得 了 一 定 的 效果 , 特别 是 在 针对 英文 中 常 出 
现 名 称 缩写 的 问题 上 。 实 验算 法 利用 模糊 语义 知识 ， 
对 输入 数据 在 空间 上 的 扭曲 具有 很 强 的 鲁 棱 性 。 


5 结 语 


从 实验 结果 可 以 发 现 , 通过 使 用 改进 的 引文 数据 
元 标注 算法 , 能 够 较 大 程度 地 提高 识别 的 准确 度 ， 其 
优势 主要 表现 为 三 个 方面 : 对 输入 数据 的 扭曲 有 很 强 
的 鲁 棒 性 , 例如 英文 缩写 的 识别 (包括 机 构 名 称 和 出 版 
商 的 缩写 ); 容错 率 高 ,即使 使 用 错误 的 分 隔 符 作为 元 
数据 的 分 割 符 , 也 可 以 通过 语义 无 差别 辨识 ; 可 移植 
性 强 , 对 于 不 同 语种 具有 很 好 的 适应 性 。 这 三 个 方面 
的 优势 使 得 实验 方法 相对 于 普通 的 机 带 学 习 的 算法 例 
如 CRF, 具有 明显 的 优势 。 但 是 该 方法 也 存在 一 些 不 
E, 由 于 必须 使 用 人 工 标 注 得 到 训练 集 ， 所 以 相对 其 
他 算法 而 言 获取 训练 数据 比较 耗 时 , 并 且 如 果 用 来 训 
练 的 数据 量 偏 小 ,会 造成 使 用 神经 网 络 算法 构建 的 词 
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向 量 模型 不 合理 ,进而 得 不 到 最 为 理想 的 分 类 效果 ， 
降低 识别 的 准确 率 和 召回 率 。 如 果 要 对 引文 数据 实现 
更 精确 的 识别 , 例如 出 版 年 份 和 页 码 , 它们 都 是 由 数 
字 组 成 , 语义 间 的 差别 不 大 , 结合 模板 方法 可 以 更 有 
效 地 提高 识别 的 精度 。 在 今后 的 元 数据 自动 识别 实验 
中 构建 机 器 学 习 和 规则 模型 相 结合 的 混合 智能 识别 算 
法 将 可 以 取得 更 好 的 识别 效果 。 
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Abstract: [Objective] This paper proposes a new method to automatically extract bibliographic metadata, with the help 


of semantic knowledge and machine learning technologies. [Methods] We used the neural network model to create 


word vectors from manually split data, and then found that same type of metadata is relatively concentrated at certain 


locations in the vector space. Thus, we proposed a new SVM classification algorithm to classify and annotate the 


bibliographic metadata automatically. [Results] The proposed method achieved high recall and precision rates with 


citation data, especially for citations with various languages and abbreviations. [Limitations] The fine-grained 


extraction of the time related content could be improved. [Conclusions] The proposed method could effectively detect 


and tag bibliographic metadata, and improve the system's compatibility and fault tolerance ability. 


Keywords: Bibliographic Metadata Metadata Extraction Machine Learning Neural Network 
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